第一節：快速讀寫檔案(2)

– 至於安裝套件的方法，假設你是用Rstudio，可以看到右下角有個Packages分頁，點選後你能看到Install按鍵，透過這種方式就能安裝套件了

F7_1

假設你是使用一般的R程式，可以在Console地方打上這個指令：

install.packages("data.table")

安裝完成後，未來我們要使用這個套件只要打上這串指令：

library(data.table)

第一節：快速讀寫檔案(3)

讓我們來體驗一下data.table套件內一個神奇的函數：「fread」，它可以以數倍的速度讀取一個csv檔案：

– 至於大Data在哪，我們可以使用第五節課用到的大檔案，請在這裡下載。

這是使用「read.csv」讀取的速度：

t0 = Sys.time()
dat1 = read.csv('data3_4.csv', header = TRUE, fileEncoding = 'CP950')
Sys.time() - t0

## Time difference of 1.562384 secs

這是使用「fread」讀取的速度：

t0 = Sys.time()
dat2 = fread('data3_4.csv', header = TRUE)
Sys.time() - t0

## Time difference of 0.07405019 secs

第一節：快速讀寫檔案(4)

比較討厭的地方在使用「fread」讀取進來的物件格式是「data.table」，這是一個新的物件格式。

class(dat1)

## [1] "data.frame"

class(dat2)

## [1] "data.table" "data.frame"

解決這個問題的方式是在使用「fread」的時候多給一個參數：

t0 = Sys.time()
dat2 = fread('data3_4.csv', header = TRUE, data.table = FALSE)
Sys.time() - t0

## Time difference of 0.1066926 secs

class(dat2)

## [1] "data.frame"

第一節：快速讀寫檔案(5)

但現在兩者還不完全一樣，問題出在哪呢?

all.equal(dat1, dat2)

## [1] "Component \"COLLECTIONDATE\": 'current' is not a factor"
## [2] "Component \"TESTNAME\": 'current' is not a factor"      
## [3] "Component \"UNITS\": 'current' is not a factor"

原來是使用「read.csv」有另一個參數「stringsAsFactors」，預設是TRUE，但使用「fread」的時候預設卻是FALSE，所以我們再改變一下：

dat1 = read.csv('data3_4.csv', header = TRUE, stringsAsFactors = FALSE, fileEncoding = 'CP950')

這樣兩者就完全一樣了

all.equal(dat1, dat2)

## [1] "Component \"COLLECTIONDATE\": 181483 string mismatches"

第一節：快速讀寫檔案(6)

除了讀取檔案之外，寫出檔案也可以使用「fwrite」函數進行加速：

– 這是使用「write.csv」寫出的速度：

t0 = Sys.time()
write.csv(dat1, 'data3_4(1).csv', row.names = FALSE, quote = TRUE)
Sys.time() - t0

## Time difference of 0.9300547 secs

– 這是使用「fwrite」寫出的速度：

t0 = Sys.time()
fwrite(dat2, 'data3_4(2).csv', row.names = FALSE, quote = TRUE)
Sys.time() - t0

## Time difference of 0.04712176 secs

第一節：快速讀寫檔案(7)

另外還有一種儲存、載入物件的方式，使用R內建的「save」與「load」函數甚至可以完全保留物件原有的所有屬性，並且能夠把任何物件存出，也具有較小的儲存空間：

– 這是儲存

t0 = Sys.time()
save(dat1, file = 'data3_4.RData')
Sys.time() - t0

## Time difference of 0.6017618 secs

– 這是載入

t0 = Sys.time()
load('data3_4.RData')
Sys.time() - t0

## Time difference of 0.2020478 secs

練習1：讀取圖片及顯示圖片

學會運用套件後，我們了解到R可以透過套件的擴充它的性能，在此之前我們完全沒辦法想像要怎樣把圖片讀進R裡面，現在請你隨便找一張圖像檔案，並試著從網路上找找看要怎樣讀檔以及顯示圖片！

– 透過Google搜尋「R display image」後，你將可以找到這個頁面，其中第一個連結進去後你會發現這裡已經有人發問和回答了：

F7_2

請試著利用它所提供的方式讀取及顯示圖片吧！

練習1答案

你應該會找到，關鍵的套件是「jpeg」，而裡面的函數「readJPEG」可以把圖讀進來：

library("jpeg")
img <- readJPEG(system.file("img", "Rlogo.jpg", package = "jpeg"))
plot(0:1, 0:1, type = "n", ann = FALSE, axes = FALSE)
rasterImage(img, -0.04, -0.04, 1.04, 1.04)

第二節：增加程式可讀性(1)

在R裡面我們經常會使用到組合函數，像是假使我們想要知道生化值的數量共有幾項，我們可以透過下面這種方法得知：

length(levels(factor(dat1$TESTNAME)))

## [1] 25

而這樣程式寫起來會很複雜，比較好的方式應該是這樣：

factorized_TESTNAME = factor(dat1$TESTNAME)
lvl_TESTNAME = levels(factorized_TESTNAME)
length(lvl_TESTNAME)

## [1] 25

但這樣在R裡面會額外儲存很多垃圾物件，並且會拖慢運算速度，因此如何在程式可讀性與執行速度上做平衡呢?

第二節：增加程式可讀性(2)

這裡我們介紹另一個套件「magrittr」，它擁有一個特殊的運算符號「%>%」，功能是把從左到右依序執行任務

– 後面函數的「.」代表上一步的結果

library(magrittr)

n.TESTNAME = dat1$TESTNAME %>% factor %>% levels %>% length
n.TESTNAME

## [1] 25

n.TESTNAME = dat1$TESTNAME %>% factor() %>% levels() %>% length()
n.TESTNAME

## [1] 25

n.TESTNAME = dat1$TESTNAME %>% factor(.) %>% levels(.) %>% length(.)
n.TESTNAME

## [1] 25

為什麼需要「.」這種方式呢，這是因為假使你的函數需要指令參數，那可以透過這種方式來寫出：

f = function(x, a, b) {a*x^2 + b}
1:5 %>% f(., 2, 5)

## [1]  7 13 23 37 55

1:5 %>% f(2, ., 5)

## [1]  9 13 17 21 25

1:5 %>% f(2, 5, .)

## [1] 21 22 23 24 25

第二節：增加程式可讀性(3)

我們再多介紹幾個特殊的運算符號(這兩個比較不常用)：

– 「%<>%」：不要顯示結果，而是改變物件內容

a = 1
a %<>% add(1)
a

## [1] 2

– 「%$%」：指定物件內的索引格式

n.TESTNAME = dat1 %$% TESTNAME %>% factor %>% levels %>% length
n.TESTNAME

## [1] 25

第二節：增加程式可讀性(4)

學習特殊運算符號的目標除了是增加自己程式的可讀性之外，更重要的是會增加及執行速度！
讓我們看看結合了眾多改變後，再回頭看看第五課的練習一這個任務要花多久：

t0 = Sys.time()

dat1$COLLECTIONDATE = dat1[,3] %>% as.Date

levels.TESTNAME = dat1[,4] %>% factor %>% levels
n.TESTNAME = levels.TESTNAME %>% length
levels.PATNUMBER = dat1[,1] %>% factor %>% levels
n.PATNUMBER = levels.PATNUMBER %>% length

dat_list = list()

for (i in 1:n.PATNUMBER) {
  
  subdat = dat1[dat1[,1]==levels.PATNUMBER[i],]
  levels.COLLECTIONDATE = subdat[,3] %>% factor %>% levels
  n.COLLECTIONDATE = levels.COLLECTIONDATE %>% length

  submatrix = matrix(NA, nrow = n.COLLECTIONDATE, ncol = n.TESTNAME + 2)
  colnames(submatrix) = c("PATNUMBER", "COLLECTIONDATE", levels.TESTNAME)

  submatrix[,1] = levels.PATNUMBER[i]
  submatrix[,2] = levels.COLLECTIONDATE

  for (j in 1:n.COLLECTIONDATE) {
    subsubdat = subdat[subdat[,3]==levels.COLLECTIONDATE[j],]
    for (k in 1:nrow(subsubdat)) {
      NAME = subsubdat[k,4]
      position = which(NAME == levels.TESTNAME) + 2
      submatrix[j, position] = subsubdat[k,5]
    }
  }
  
  dat_list[[i]] = submatrix
}

final.data = do.call("rbind", dat_list)

Sys.time() - t0

## Time difference of 1.55415 mins

head(final.data)

##      PATNUMBER COLLECTIONDATE Albumin Albumin body fluid AST BUN BUN Fluid
## [1,] "26"      "2011-05-12"   NA      NA                 NA  NA  NA       
## [2,] "26"      "2011-05-30"   NA      NA                 NA  NA  NA       
## [3,] "26"      "2011-05-31"   NA      NA                 NA  NA  NA       
## [4,] "26"      "2011-06-01"   NA      NA                 NA  NA  NA       
## [5,] "26"      "2011-06-02"   NA      NA                 NA  NA  NA       
## [6,] "26"      "2011-06-06"   NA      NA                 NA  NA  NA       
##      Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC) HDL-Cholesterol
## [1,] NA                "1.8"      NA               NA      NA             
## [2,] NA                "3"        NA               NA      NA             
## [3,] NA                "2.9"      NA               NA      NA             
## [4,] NA                "2.9"      NA               NA      NA             
## [5,] NA                "2.4"      NA               NA      NA             
## [6,] NA                "1.9"      NA               NA      NA             
##      IP    K  LDL-Cholesterol Na    NA Fluid Total Calcium
## [1,] NA    NA NA              "140" NA       NA           
## [2,] NA    NA NA              "139" NA       NA           
## [3,] "4.6" NA NA              "145" NA       "7.8"        
## [4,] NA    NA NA              "144" NA       "6.1"        
## [5,] NA    NA NA              "138" NA       "7.1"        
## [6,] NA    NA NA              "134" NA       "8"          
##      Total Cholesterol Triglyceride Triglycerol Fluid Uric Acid
## [1,] NA                NA           NA                NA       
## [2,] NA                NA           NA                NA       
## [3,] "134"             "131"        NA                NA       
## [4,] NA                NA           NA                NA       
## [5,] NA                NA           NA                NA       
## [6,] NA                NA           NA                NA       
##      urine Calcium urine Phosphorus urine Potassium urine Sodium
## [1,] NA            NA               NA              NA          
## [2,] NA            NA               NA              NA          
## [3,] "5.6"         "41.4"           "29"            "61"        
## [4,] NA            NA               NA              NA          
## [5,] NA            NA               NA              NA          
## [6,] NA            NA               NA              NA          
##      urine Uric Acid
## [1,] NA             
## [2,] NA             
## [3,] NA             
## [4,] NA             
## [5,] NA             
## [6,] NA

居然2分多鐘就做完了，配上讀取/寫出檔案的時間加起來也不超過2分半，看來大檔案的處理也並不怎麼可怕！

final.data = as.data.frame(final.data, stringsAsFactors = FALSE)

fwrite(final.data, 'final_data.csv', row.names = FALSE, quote = TRUE)

練習2：學習看看說明做事情

我們先把生化值都轉成數字格式：

for (i in 1:n.TESTNAME) {
  final.data[,i+2] = as.numeric(final.data[,i+2])
}

雖然我們已經學會了非常多資料處理的技術，但我們也深深了解到使用套件能帶給我們的加速是非常顯著的，我們來查查平常人家都怎樣做資料處理。
你不用查很久你就會發現有個套件叫做「dplyr」，我們發現大家比較喜歡用這個套件來做資料處理：

– 假設我們想做出鈣磷乘積：

final.data_1 = final.data

final.data_1[,"Cap"] = final.data_1[,"Total Calcium"] * final.data_1[,"IP"]

head(final.data_1)

##   PATNUMBER COLLECTIONDATE Albumin Albumin body fluid AST BUN BUN Fluid
## 1        26     2011-05-12      NA                 NA  NA  NA        NA
## 2        26     2011-05-30      NA                 NA  NA  NA        NA
## 3        26     2011-05-31      NA                 NA  NA  NA        NA
## 4        26     2011-06-01      NA                 NA  NA  NA        NA
## 5        26     2011-06-02      NA                 NA  NA  NA        NA
## 6        26     2011-06-06      NA                 NA  NA  NA        NA
##   Cholesterol Fluid Creatinine Creatinine Fluid GLU(AC) HDL-Cholesterol
## 1                NA        1.8               NA      NA              NA
## 2                NA        3.0               NA      NA              NA
## 3                NA        2.9               NA      NA              NA
## 4                NA        2.9               NA      NA              NA
## 5                NA        2.4               NA      NA              NA
## 6                NA        1.9               NA      NA              NA
##    IP  K LDL-Cholesterol  Na NA Fluid Total Calcium Total Cholesterol
## 1  NA NA              NA 140       NA            NA                NA
## 2  NA NA              NA 139       NA            NA                NA
## 3 4.6 NA              NA 145       NA           7.8               134
## 4  NA NA              NA 144       NA           6.1                NA
## 5  NA NA              NA 138       NA           7.1                NA
## 6  NA NA              NA 134       NA           8.0                NA
##   Triglyceride Triglycerol Fluid Uric Acid urine Calcium urine Phosphorus
## 1           NA                NA        NA            NA               NA
## 2           NA                NA        NA            NA               NA
## 3          131                NA        NA           5.6             41.4
## 4           NA                NA        NA            NA               NA
## 5           NA                NA        NA            NA               NA
## 6           NA                NA        NA            NA               NA
##   urine Potassium urine Sodium urine Uric Acid   Cap
## 1              NA           NA              NA    NA
## 2              NA           NA              NA    NA
## 3              29           61              NA 35.88
## 4              NA           NA              NA    NA
## 5              NA           NA              NA    NA
## 6              NA           NA              NA    NA

– 在仔細閱讀說明後，我們發現有個「mutate」函數，他能做到我們想做的事情，現在請你試著使用mutate函數來做出鈣磷乘積！

練習2答案

你應該會發現，如果要做Creatinine和Na的乘積，可以用下面這個語法：

library(dplyr)

final.data_1 = final.data

final.data_1 %<>% mutate(CrNa = Creatinine * IP)

但是如果要做出鈣磷乘積，則要先改名字：

colnames(final.data_1)[18] = 'Total_Calcium'

final.data_1 %<>% mutate(Cap = Total_Calcium * Na)

第三節：遺漏值插補(1)

在剛剛的資料中，你應該有注意到假設我想計算鈣磷乘積，那勢必得同時有鈣以及磷兩個指標，那假設同一天只有測磷，而沒有測鈣呢?
在這裡，我們要介紹遺漏值插補的技術，而根據不同的資料型態會選擇不同的方法，以我們的資料為例，由於裡面有不同的個案，所以我們插補的依據就是「把每個人的平均」補上去。
這個問題其實就是要一個人一個人做，我們同樣的再把原始資料，取平均需要用到函數「mean」：

final.data_1 = final.data

levels.PATNUMBER = final.data_1[,1] %>% factor %>% levels
n.PATNUMBER = levels.PATNUMBER %>% length

i = 1
sub_final.data_1 = final.data_1[final.data_1[,1] == levels.PATNUMBER[i],]
sub_final.data_1[is.na(sub_final.data_1[,'IP']),'IP'] = mean(sub_final.data_1[,'IP'], na.rm = TRUE)

這邊你先思考一下，我要如何把這樣的過程擴展到全部的資料上面?

第三節：遺漏值插補(2)

那要做所有變項的也不難，只要這樣就能做完了：

final.data_1 = final.data

levels.PATNUMBER = final.data_1[,1] %>% factor %>% levels
n.PATNUMBER = levels.PATNUMBER %>% length
levels.TESTNAME = colnames(final.data_1)[-c(1:2)]
n.TESTNAME = levels.TESTNAME %>% length

dat_list = list()

for (i in 1:n.PATNUMBER) {
  sub_final.data_1 = final.data_1[final.data_1[,1] == levels.PATNUMBER[i],]
  for (j in 1:n.TESTNAME) {
    sub_final.data_1[is.na(sub_final.data_1[,levels.TESTNAME[j]]),levels.TESTNAME[j]] = mean(sub_final.data_1[,levels.TESTNAME[j]], na.rm = TRUE)
  }
  dat_list[[i]] = sub_final.data_1
}

final.data_1 = do.call("rbind", dat_list)

但你可能會有疑問，這樣插補感覺很不可靠，畢竟病人隨著時間生化值會慢慢變化，我要插補的值應該是選擇找「天數最近的值」作為插補的依據。

– 那這樣再考考你，你覺得應該怎麼做?

第三節：遺漏值插補(3)

關鍵其實是在sub_final.data_1的處理上，我們簡單點來拆解程式，並先找出不是na的位置在哪：

final.data_1 = final.data

levels.PATNUMBER = final.data_1[,1] %>% factor %>% levels
n.PATNUMBER = levels.PATNUMBER %>% length
levels.TESTNAME = colnames(final.data_1)[-c(1:2)]
n.TESTNAME = levels.TESTNAME %>% length

dat_list = list()

i = 1
sub_final.data_1 = final.data_1[final.data_1[,1] == levels.PATNUMBER[i],]
j = 1
value_pos = which(!is.na(sub_final.data_1[,levels.TESTNAME[j]]))
if (length(value_pos)!=0) {
  k = 1
  if (is.na(sub_final.data_1[k,levels.TESTNAME[j]])) {
    impute_seq = which.min(abs(value_pos - k))
    impute_pos = value_pos[impute_seq]
    sub_final.data_1[k,levels.TESTNAME[j]] = sub_final.data_1[impute_pos,levels.TESTNAME[j]]
  }
}

這邊有個小坑，需要先確認value_pos的長度是否為0！

第三節：遺漏值插補(4)

要完全所有的事情，只要把剛剛的程式再寫到迴圈內即可：

final.data_1 = final.data

levels.PATNUMBER = final.data_1[,1] %>% factor %>% levels
n.PATNUMBER = levels.PATNUMBER %>% length
levels.TESTNAME = colnames(final.data_1)[-c(1:2)]
n.TESTNAME = levels.TESTNAME %>% length

dat_list = list()

for (i in 1:n.PATNUMBER) {
  sub_final.data_1 = final.data_1[final.data_1[,1] == levels.PATNUMBER[i],]
  for (j in 1:n.TESTNAME) {
    value_pos = which(!is.na(sub_final.data_1[,levels.TESTNAME[j]]))
    if (length(value_pos)!=0) {
      for (k in 1:nrow(sub_final.data_1)) {
        if (is.na(sub_final.data_1[k,levels.TESTNAME[j]])) {
          impute_seq = which.min(abs(value_pos - k))
          impute_pos = value_pos[impute_seq]
          sub_final.data_1[k,levels.TESTNAME[j]] = sub_final.data_1[impute_pos,levels.TESTNAME[j]]
        }
      }
    }
  }
}

final.data_1 = do.call("rbind", dat_list)

期中作業：找出適當的作法及套件進行資料插補

這週給各位一個家庭作業，那就是根據你對我們資料的了解，請你找出一個最好的方式進行遺漏值得插補！
如果你想找找R有哪些可以進行插補的方法，你可以搜尋「r impute missing values」

F7_4

你會發現很多資源，而各套件所提供的方案其實是不同的，要根據你的資料選擇最適當的方式，所以你需要提供的作業需要這樣紀錄：

你對目前這份資料型態的了解
你所選用的方法及其原理
插補過程的程式碼(含檔案)
你所引用的資料來源

小結

資料表整理的所有課程到目前為止告一段落，你會發現我們用到的函數非常有限，但組合效果已經相當驚人了。

– 遺漏值插補是資料處理中最有學問的部分，你之後會發現未來在做任何事情的時候其實是不允許遺漏值存在的，而遺漏值插補的過程會嚴重的影響你未來工作的效果！

套件也是程式語言運用不可或缺的一部分，未來你有很多工作其實都會用套件解決，「如果你想要做一台汽車，你不需要重新發明一個輪子」

– 但你可以直接把「輪子」買來，但你也要有能力確保若廠商不供貨時，你也可以靠自己把「輪子」製造出來！

外部套件下載及應用

第一節：快速讀寫檔案(1)